さらに最近旅botに追加した日本語系LLMの、旅botでの使用感と口癖を追記しておきます。
https://note.com/marble_walkers/n/n6a9ccdcbc68a
今回は以下を追加しています。
ELYZA ELYZA-13b
https://huggingface.co/elyza/ELYZA-japanese-Llama-2-13b-fast-instructLightblue qarasu-14b
https://huggingface.co/lightblue/qarasu-14B-chat-plus-unleashedtokyotech-llm Swallow-7b
https://huggingface.co/tokyotech-llm/Swallow-7b-instruct-hf
今回も従来と同じく、ベンチマークではないのでプロンプトも出力結果も「旅botらしい出力になるように個々で微調整はしています」
ですので各比較結果ともに旅botの出力に似合うかであって、LLMの性能比較ではありませんのでご注意ください。
旅botの特性上、ハルシネーションが大きく出たものの方が面白いと評価していることがあるので一般的な性能評価とは異なります。
今回の追加モデル
ELYZA ELYZA-13b
https://twitter.com/marble_walker/status/1745645190688477495
以前からELYZA-7bは旅botだけでなくToDo機能のほうでも使用しており、自分の環境では安定に動くのでよく使わせてもらっています。それの13b版です。
ELYZA-13bも同じように安定した日本語旅ログを生成できています。ただ13bだから何か劇的に変わったかといえばそうでもなく、旅ログ的にはELYZA-7bと大差はない感じです。
旅botのプロンプトの指示内容は難しい指示をしている訳ではないので13bの拡大分の効果は旅ログにはそれほど出ないという感じでしょうか。
癖としてChatGPT3.5で現れていた「ですね。ですよ。」の末尾にたまにでるようになったくらいでしょうか。
Lightblue qarasu-14b
https://twitter.com/marble_walker/status/1744292679771664700
LightBlueさんのLLMは今回初めて使いますが、Qwenベースのモデルとのことです。
日本語については達者です。CyberAgent calm2やELYZAの各モデルと同じくらいに自然な文が出ていますし、ハルシネーションも適度と感じます。
感触でいうと、文にやや理屈っぽさが感じられます。イメージとしてはstablelm-7bをもう少し日本語を得意にしたような感じです。
漢字に中国語の字がたまに出るのはQwenベースのためでしょうか。XWin量子化版でも同様に繁体字/簡体字が出ていたこともあり仕方ないところと思われます。
tokyotech-llm Swallow-7b
https://twitter.com/marble_walker/status/1745319074551525564
東京工業大学と産業技術総合研究所によるLLMだそうです。
細かいところで指示の解釈が甘いかなと思われる部分もありますが、日本語としては自然な文が出ています。
ハルシネーションも適度には出ています。旅bot用としては、もうちょっと思いきりのよいハルシネーションが出て欲しいところです(普通のLLMベンチマークだとハルシネーションはないほうが喜ばれるんですけどね)
今回のモデルは日本語表現はどれも安定している
今回追加したモデルは日本語表現についてはどれもわかりやすいです。日本語特化型LLMの日本語が読みやすくなっていくのはよい話しと思います。
どちらかというと自分の環境側の問題でモデルの追加に苦労しました。。
実行可能なローカルLLM(現在9種類くらい)を単純にCPUメモリで追加し続けていたのでメモリオーバーになってモデルの再ロード/破棄する処理を追加したり、Qwen系モデルの設定で結構エラーがでまくったり(結局 rinnaのnekomataはうまく追加できなかった)
そろそろGPUもゲーミングGPU以上にしないと厳しいと思いつつそこに手間暇かけるのもどうなのかなーと悩み中です。